Introduction
Ce projet est réalisé dans le cadre de la matière Visualisation de données enseignée à l’Université de Technologie de Troyes.
Notre analyse porte sur le World Happiness Report, une enquête annuelle qui récolte des données du monde entier pour indiquer comment les gens évaluent leur propre vie dans plus de 150 pays du globe. Le but de notre projet est de concevoir les meilleures visualisations possibles pour analyser les données du World Happiness Report et pour mettre en valeur les informations qui en découlent.
Lien des datasets
- World Happiness Report (de 2015 à 2019)
- World Happiness Report (2020)
- World Happiness Report (2021)
- Healthy Lifestyle Cities Report 2021
Le dernier dataset apporte des indicateurs supplémentaires sur ce qui est susceptible de provoquer le bonheur des populations (prix de la vie, soleil, obésité…). Cependant, il ne comporte uniquement les données de 2021, ainsi nous pourrons seulement le comparer avec le dataset qui comporte les données du World Happiness Report de 2021. Cela nous permettra d’apporter une nouvelle dimension à notre analyse.
Données
Le jeu de données que nous avons choisi d’étudier est issu d’une enquête de référence sur l’état du bonheur dans le monde. Il comporte des données de 2015 à 2021, et classe 155 pays selon leur niveau de bonheur. Il permet d’établir une corrélation entre différents critères (liberté, corruption, cadre de vie…) et le niveau de bonheur qui en découle.
Les jeux de données initiaux comportent 13 variables :
| Variable | Class | Description |
|---|---|---|
| country | character | Nom du pays |
| region | character | Région à laquelle le pays appartient |
| hapiness rank | integer | Classement du pays sur la base du score du bonheur |
| hapiness score | double | Un indicateur mesuré chaque année en posant aux personnes de l’échantillon la question suivante : “Comment évaluez-vous votre bonheur sur une échelle de 0 à 10 où 10 est le plus heureux” |
| lower confidence interval | double | Intervalle de confiance inférieur du score de bonheur |
| upper confidence interval | double | Intervalle de confiance supérieur du score de bonheur |
| economy (GPD per capita) | double | La mesure dans laquelle le PIB contribue au calcul du score du bonheur |
| family | double | La mesure dans laquelle la famille contribue au calcul du score du bonheur |
| health (life expectancy) | double | La mesure dans laquelle l’espérance de vie a contribué au calcul du score du bonheur |
| freedom | double | La mesure dans laquelle la liberté a contribué au calcul du score du bonheur |
| trust (governement corruption) | double | La mesure dans laquelle la perception de la corruption contribue au score de bonheur |
| generosity | double | La mesure dans laquelle la générosité a contribué au calcul du score de bonheur |
| dystopia residual | double | “Résidu” correspondant à l’écart entre le modèle théorique et la réalité, auquel on ajoute un score de dystopie (score d’un pays hypothétique moins bien classé que tous les autre) |
Par la suite, nous avons ajouté plusieurs données nécessaires à la création de cartes : les coordonnées géographiques des pays, ainsi que leur géométrie, afin de pouvoir colorier les surfaces des pays sur les cartes. Nous avons également ajouté une colonne indiquant le continent sur lequel se trouve chaque pays.
L’ensemble des données utilisées est disponible dans le dossier
/data/
Ces données nous semblent pertinentes dans le cadre d’une analyse car :
- Elles sont analysables dans le temps
- Elles sont analysables géographiquement
- Elles permettent d’étudier différents facteurs de contribution au bonheur en fonction des régions du monde, des cultures…
Plan d’analyse
Analyse temporelle : Comment évolue le bonheur moyen au fil des années ? (en regroupant par région, en utilisant des facet charts pour visualiser les différentes années en même temps)
Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ? Pourquoi ? ➡️ Utiliser les facteurs de contribution du score pour mettre en évidence des causes de disparité
Le niveau de bonheur est-il directement corrélé à la liberté des individus ? ➡️ Question extensible à la richesse, à l’espérance de vie…
Quelle combinaison de facteurs hauts entraîne une hausse du bonheur ? Quelle combinaison de facteurs bas entraîne une diminution de celui-ci ? (par exemple: avoir une espérance de vie élevée ET un PIB élevé ET un taux de liberté elevé implique-t-il nécessairement un haut niveau de bonheur, au-dessus d’un certain seuil ?)
Nettoyage des données
Le nettoyage des jeux de données est la première étape du projet, et certainement l’une des plus importantes. Nous nous en sommes rendus compte après avoir essayé de concevoir des graphiques avec les jeux de données bruts : nous avons été très vite restreints, d’un côté car il était impossible d’analyser les données temporellement car les données étaient séparées dans des datasets différents, et de l’autre parce que les noms des variables comportaient des espaces et différaient d’un dataset à l’autre.
Afin de pouvoir travailler efficacement, nous avons opéré le nettoyage suivant :
Nous avons commencé par analyser tous les datasets pour voir si les données nommées de la même manière correspondent à la même chose (ce qui n’était pas toujours le cas). Parfois, la variable “freedom” d’un dataset correspondait à la variable “explained_by_freedom” d’un autre dataset.
Nous avons ensuite renommé toutes les colonnes de tous les datasets de la même manière selon la convention définie ci-dessous.
Nous avons fusionné l’ensemble des datasets de manière à travailler sur un seul tableau propre à l’aide de filtres par la suite. Nous avions au préalable ajouté une variable Year car cette donnée n’était pas fournie à l’intérieur des datasets et nous aurions mélangé toutes les données lors de la fusion des datasets.
Afin de pouvoir travailler avec des cartes, nous avons été contraints d’ajouter pour chaque pays des données géométriques et GPS.
Convention de nommage des colonnes
- Le nom des colonnes commence par une Majuscule
- Les espaces sont remplacés par un underscore “_”
À savoir
Avant de commencer l’analyse détaillée du jeu de données, il y a quelques informations à connaître.
- Comme nous allons analyser le score de bonheur des régions, nous avons jugé utile de présenter la liste des pays de chaque région :
| Region | Countries |
|---|---|
| Australia and New Zealand | Australia, New Zealand |
| Central and Eastern Europe | Albania, Armenia, Azerbaijan, Belarus, Bosnia and Herzegovina, Bulgaria, Croatia, Czech Republic, Estonia, Georgia, Hungary, Kazakhstan, Kosovo, Kyrgyzstan, Latvia, Lithuania, Macedonia, Moldova, Montenegro, Poland, Romania, Russia, Serbia, Slovakia, Slovenia, Tajikistan, Turkmenistan, Ukraine, Uzbekistan |
| Eastern Asia | China, Hong Kong, Japan, Mongolia, South Korea, Taiwan |
| Latin America and Caribbean | Argentina, Bolivia, Brazil, Chile, Colombia, Costa Rica, Dominican Republic, Ecuador, Guatemala, Haiti, Honduras, Jamaica, Mexico, Nicaragua, Panama, Paraguay, Peru, Salvador, Suriname, Trinidad and Tobago, Uruguay, Venezuela |
| Middle East and Northern Africa | Algeria, Bahrain, Egypt, Iran, Iraq, Israel, Jordan, Kuwait, Lebanon, Libya, Morocco, Oman, Palestinian Territories, Qatar, Saudi Arabia, Syria, Tunisia, Turkey, United Arab Emirates, Yemen |
| North America | Canada, United States |
| Southeastern Asia | Cambodia, Indonesia, Laos, Malaysia, Myanmar, Philippines, Singapore, Thailand, Vietnam |
| Southern Asia | Afghanistan, Bangladesh, Bhutan, India, Nepal, Pakistan, Sri Lanka |
| Sub-Saharan Africa | Angola, Benin, Botswana, Burkina Faso, Burundi, Cameroon, Central African Republic, Chad, Comoros, Congo (Brazzaville), Congo (Kinshasa),Djibouti, Ethiopia, Gabon, Ghana, Guinea, Ivory Coast, Kenya, Lesotho, Liberia, Madagascar, Malawi, Mali, Mauritania, Mauritius, Mozambique, Niger, Nigeria, Rwanda, Senegal, Sierra Leone, Somaliland región, South Africa, Sudan, Swaziland, Tanzania, Togo, Uganda, Zambia, Zimbabwe |
| Western Europe | Austria, Belgium, Cyprus, Denmark, Finland, France, Germany, Greece,Iceland, Ireland, Italy, Luxembourg, Malta, Netherlands, North Cyprus, Norway, Portugal, Spain, Sweden, Switzerland, United Kingdom |
- Qu’est ce que le bonheur ?
Avant d’étudier le World Happiness Report, il est important de définir ce qu’est le bonheur, car il peut s’agir d’une notion assez subjective.
Le bonheur est un état émotionnel agréable, équilibré et durable dans lequel se trouve quelqu’un qui estime être parvenu à la satisfaction des aspirations et désirs qu’il juge importants. Il perçoit alors sa propre situation de manière positive et ressent un sentiment de plénitude et de sérénité, sans stress ni inquiétude. Cette impression ressentie, indispensable à la survie des mammifères, est principalement le résultat de la production de sérotonine, réduisant la prise de risques et poussant ainsi l’individu à maintenir une situation qui lui est favorable. Le bonheur ne doit pas être confondu avec la sensation passagère de plaisir, issue principalement de la production de dopamine et non de sérotonine, mais représente au contraire un état d’équilibre, agréable, qui dure dans le temps.
Source : Wikipedia
- Est-ce que les données récoltées sont vraiment objectives ?
La principale question posée lors des enquêtes sur le bonheur est : “Imaginez une échelle avec des barreaux numérotés de zéro en bas à dix en haut. Le barreau du haut représente la meilleure vie possible pour vous, et le barreau du bas la pire vie possible pour vous. Sur quel barreau pensez-vous vous tenir à ce moment de votre vie ?”. Connue sous le nom d’échelle de Cantril, cette évaluation du bien-être, ainsi que la formulation précise de la question, constitue un standard commun pour les recherches sur le bien-être subjectif. En effet, le bonheur est une notion très subjective, et peut rapidement être faussée par les petits événements du quotidien. Si on pose la question à quelqu’un qui vient d’avoir un F en MATH02 et qui a loupé son train pour rentrer chez ses parents à Toulouse, il y a beaucoup de chances que sa réponse soit influencée par ses troubles actuels. Pourtant, ils ne définissent pas le bonheur sur le long terme de l’individu, seulement il est difficile pour l’homme d’avoir une vision d’ensemble sur sa vie. Ainsi, l’échelle de Cantril semble être selon les experts la mesure la plus fructueuse du bonheur des individus.
Il faut donc garder à l’esprit que les données constituent une auto-évaluation des individus, ainsi elles sont par défaut subjectives. Cependant, elles tendent à être comparables grâce à l’échelle de Cantril, qui nous offre la mesure la plus universelle possible du bonheur.
Sources : Cairn.info & Our World in Data
I) Analyse temporelle : Comment évolue le bonheur moyen au fil des années ?
Dans cette première partie, nous analysons l’évolution du bonheur entre 2015 et 2021. Nous proposons les modélisations suivantes :
Les visualisations réalisées
1. L’évolution du bonheur moyen dans le monde
Nous commencerons cette analyse par la visualisation du bonheur moyen au niveau mondial. La visualisation suivante est donc construite à partir de la moyenne globale des scores de bonheur de tous les pays chaque année.
Attention : on peut penser à première vue que la variation du bonheur moyen au fil des ans est importante. Il est important de prendre en compte l’échelle de l’axe des ordonnées : la variation est en réalité relativement faible, cette échelle ayant précisément été choisie pour qu’elle soit plus visuelle.
Ce graphique nous indique que le niveau moyen de bonheur dans le monde observe une tendance à la hausse, hormis une légère baisse en 2017. On peut cependant s’interroger sur la représentativité de ce résultat au vu de la moyenne globale effectuée. Qu’en est-il lorsque nous nous plaçons à l’échelle des différentes régions du monde?
2. L’analyse temporelle par région du monde
Cette seconde visualisation s’attache à représenter l’évolution du bonheur moyen par région, chaque ligne représentant les données d’une région. On transforme pour cela nos données de sorte à les regrouper par année ET par région, puis on calcule la moyenne du score de bonheur par région. On obtient donc le score de bonheur moyen par an et par région, dont on peut observer l’évolution sur la visualisation suivante:
On a ajouté à ces données par région la moyenne pour le monde. On peut donc effectuer simplement des comparaisons (en cliquant sur l’étiquette d’une région pour la faire apparaître/disparaître notamment) entre les différentes régions.
On se rend ici aisément compte qu’il ne fallait pas se contenter d’une moyenne globale, et qu’une moyenne par région nous montre des disparités bien plus importantes quant à l’évolution du niveau de bonheur dans le monde au cours des dernières années.
3. Les pays dont le niveau de bonheur a le plus augmenté au cours des dernières années
La visualisation suivante s’attache aux pays ayant connu une hausse de leur score de bonheur entre 2015 et 2021. Elle représente les 10 taux d’accroissement de ce score les plus importants, en prenant le score de 2015 comme référence (un taux d’accroissement de 20% signifie donc qu’en 2021, le score de bonheur du pays est 20% plus élevé qu’en 2015)
Voyons maintenant le résultat pour les pays dont le score a le plus chuté entre 2015 et 2021:
4. La répartition du niveau de bonheur des différentes régions du monde chaque année
Cet histogramme permet de visualiser le score de bonheur le plus présent dans une région. Le score de chaque pays est arrondi à l’entier le plus proche. Le graphique prend donc compte de chacun des scores de bonheur individuel de chaque pays, puis les regroupe par régions.
On remarque que la plupart des régions du monde voient le score de bonheur des différents pays répartis sur trois scores de bonheur différents. Cependant les scores de bonheur sont souvent consécutifs (3-4-5, 2-3-4,..) ce qui montre un lien évident entre le score de bonheur d’un pays et la région du monde dans laquelle il se situe. On constate aussi que depuis 2018, en l’Amérique latine le score de bonheur est à 6 pour une très grande majorité des pays. La région est donc assez équilibrée tout comme l’Australie et la Nouvelle-Zélande qui ont un score de bonheur a 7 depuis 2015. L’Europe de l’Est quant à elle est toujours la seule à avoir dans certains pays un score de bonheur à 8. Les régions les moins heureuses d’après les graphique sont depuis 2015, l’Afriquesubsaharienne et l’Asie du Sud. L’Afrique du Nord et de l’Est semble voir son score de bonheur augmenter au fil des années.
4. Le score de bonheur moyen par région chaque année
La visualisation suivante représente l’évolution au cours des années du score de bonheur moyen de chaque région. Non, ces graphes ne sont pas identiques ;) L’intérêt principal de ce graphique est de constater en un coup d’oeil que les scores moyens par régions restent très stables. Les régions ont été ordonnées par ordre décroissant, de la région possédant le meilleur score à celle possédant le moins bon.
5. Classement [à déplacer]
II) Analyse par facteurs : Quels facteurs contribuent le mieux au bonheur dans le monde ?
Les scores de bonheur précédemment mis en lumière sont le résultats de différents facteurs: - la liberté - l’espérance de vie - le PIB par habitant - la générosité - la confiance dans le gouvernement en place - le support social
Le jeu de données possède des champs décrivant le niveau de contribution de chacun de ces facteurs au score global (tous les champs dont le nom commence par Explained_by_…).
En plus de ces champs, les jeux de données des années 2020 et 2021 possèdent des champs donnant des valeurs pour ces facteurs (Generosity, Freedom, Life_expectancy…).
Cette partie s’attachera donc à tenter d’observer les corrélations pouvant exister entre ces facteurs et un score de bonheur élevé ou non.
Commençons par le facteur “liberté”: la visualisation suivante est un graphique en nuage de points, présentant en abscisse les valeurs enregistrées pour le facteur “liberté” et en ordonnée les valeurs de score de bonheur correspondantes.
On constate immédiatement à la visualisation de ce graphique que le score de bonheur, comme on pouvait légitimement s’y attendre, est bien corrélé au score de bonheur des différents pays.
Effectuons la même analyse pour le PIB par habitant, l’espérance de vie et le soutien social:
On peut une fois encore observer une corrélation générale entre ces
derniers facteurs et le score de bonheur.
Cependant, chacun des facteurs fournis dans ce dataset ne contribue par
nécessairement grandement au score de bonheur.
En effet, voici les graphiques de corrélation obtenus pour les facteurs
“générosité” et “confiance dans le gouvernement”:
On constate cette fois-ci, et à l’inverse des graphes précédemment
étudiés, que les valeurs sont relativement éparpillées et ne permettent
pas d’établir une corrélation entre la générosité ou la confiance dans
le gouvernement et le score de bonheur.
Ces facteurs sont donc a priori moins impactants sur les variations de
score entre les différents pays.
X.2/ Corrélation entre les différents facteurs proposés dans un dataset supplémentaire de 2021
III) Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ?
Dans cette partie, le but est de déterminer si le bonheur a des préférences géographiques, et d’identifier les critères qui rendent les populations de régions spécifiques plus heureuses que les autres.
Les visualisations réalisées
Un boxplot qui indique la distribution des scores de bonheur de chaque région
Une carte du monde colorée par pays en fonction du score de bonheur (avec leaflet)
Faire des scatterplots pour les différents critères en fonction du niveau de bonheur par région (moyenne sur toutes les années ou évolution dans le temps ?)
La distribution des scores de bonheur de chaque région chaque année
La visualisation du boxplot nous permet de situer rapidement les scores de bonheurs des pays d’une même région. On constate en un coup d’oeil que les 3 régions du monde les plus heureuses sont la Nouvelle Zélande, l’Amérique du Nord et l’Europe de l’Ouest.